草庐IT

java - 计算文本之间相似度的算法

全部标签

ruby - 在 Ruby 中解析结构化文本

SO上有几个关于在Ruby中解析结构化文本的问题,但没有一个适用于我的情况。我是RubyWhoislibrary的作者.该库包含多个解析器,用于解析WHOIS响应并从内容中提取属性。到目前为止,我使用了两种方法:基本解析器的正则表达式(例如whois.aero)StringScanner对于高级解析器(例如whois.nic.it)正则表达式效率不高,因为如果我需要提取15个属性,我需要至少扫描同一个响应15次。StringScanner是一个不错的库,但创建一个高效的扫描器并不是那么简单。我想知道您是否建议使用其他一些Ruby工具来实现WHOIS记录解析器。我正在阅读有关Treeto

ruby-on-rails - 在 ruby​​ 进程之间处理大数据对象

如果使用Marshal.dump写入文件,我有一个Ruby散列达到大约10兆字节。gzip压缩后约为500KB。在ruby​​中迭代和改变这个散列是非常快的(几分之一毫秒)。即使复制它也非常快。问题是我需要在RubyonRails进程之间共享此散列中的数据。为了使用Rails缓存(file_store或memcached)执行此操作,我需要先Marshal.dump文件,但这会在序列化文件时产生1000毫秒的延迟,在序列化文件时产生400毫秒的延迟。理想情况下,我希望能够在100毫秒内从每个进程保存和加载此哈希。一个想法是生成一个新的Ruby进程来保存这个散列,该散列为其他进程提供AP

ruby - 趋势算法

我正在开发一个类似微论坛的项目,其中一个特殊用户发布一条快速(接近推文大小)的主题消息,订阅者可以用他们自己的类似大小的消息来响应。直截了当,没有任何形式的“挖掘”或投票,只是每个主题消息的响应按时间顺序排列。但预计会有很高的流量。我们想根据它们引起的响应嗡嗡声来标记主题消息,使用0到10的等级。在谷歌上搜索了一段时间的趋势算法和开源社区应用示例,到目前为止已经收集到两个有趣的引用资料,但我还没有完全理解它们:Understandingalgorithmsformeasuringtrends,关于使用基线趋势算法比较维基百科页面浏览量的讨论,在SO上。TheBritneySpearsP

ruby - 如何将 Vim 中的 "expand"文本转换成一种易于阅读的方式?

我经常使用嵌套数据结构,很多时候我必须从控制台手动分析它们。问题是它们全部打印在一行中。是否有一种简单的方法可以根据{,[,],}和逗号重新构造数据结构的显示,使其看起来像Ruby的pretty_print输出? 最佳答案 :%s/\([{,]\)/\1\r/gggVG=:setft=ruby呜呜呜 关于ruby-如何将Vim中的"expand"文本转换成一种易于阅读的方式?,我们在StackOverflow上找到一个类似的问题: https://stacko

ruby - Ruby 中有条件的内联和有条件的 block 之间的区别

今天我遇到了Ruby的内联if和阻塞if这种奇怪的行为2.0.0-p247:001>inline_if='valuewillnotsetbutnoerror'ifinline_if=>nil2.0.0-p247:002>ifblock_if2.0.0-p247:003?>block_if='forgetaboutsettingvalue,Iwillraiseanerror'2.0.0-p247:004?>endNameError:undefinedlocalvariableormethod`block_if'formain:Objectfrom(irb):2from/Users/myu

ruby - 潘戈+开罗;是否有处理文本中 <img> 样式标签的现有方法?

Pango语法支持一些纯文本标记。据我所知,这也没有扩展到嵌入图像。环顾四周,我找不到太多现有实现方式,但我之前没有做过pango+cairo工作,所以我可能会错过明显的社区。据我所知,一个合理的方法是只分析一个字符串,提取任何标签,创建cairo图像,然后相应地修改它们周围的pango布局。这看起来也像是以前有人做过的事情。我专门寻找这些问题的答案:pango+cairo是否已经解决了这个问题,我只是误读了文档?以前有没有做过这样的事情,引用在哪里?这是一种合理的方法,还是我应该尝试其他方法,什么?(还要注意我使用的是ruby​​,所以这可能会影响我的选择)

ruby-on-rails - ruby/rails array 两个索引之间的所有元素

我有一个这样的数组:[7,8,9,10,11,12,1,2,3,4,5,6]返回数组中从位置6到位置0的每个项目的最简单方法是什么,结果数组如下所示:[1,2,3,4,5,6,7]数组中的这个位置可以是动态的,例如传入4和9应该返回[11,12,1,2,3,4]我想知道是否有一种方法可以在Railsapi中实现这一点。提前致谢编辑假设没有负数,那么array[2..-2]将不起作用。Array#splice几乎适用于此,但如果第二个位置小于第一个,则返回nil。 最佳答案 deffooa,min,maxa.rotate(min).f

ruby - 在Ruby中计算持续时间与毫秒之间的差异

TL;DR:IneedtogetthedifferencebetweenHH:MM:SS.msandHH:MM:SS.msasHH:MM:SS:ms我需要什么:这是一个棘手的问题。我正在尝试计算两个时间戳之间的差异,如下所示:In:00:00:10.520Out:00:00:23.720应该交付:Diff:00:00:13.200我想我应该将时间解析为实际的Time对象并在那里使用差异。这在前一种情况下效果很好,并返回00:0:13.200。什么不起作用:然而,对于某些人来说,这并不能正常工作,因为Ruby使用usec而不是msec:In:00:2:22.760Out:00:2:31.

Ruby - 不支持的密码算法 (AES-256-GCM)

我收到错误:unsupportedcipheralgorithm(AES-256-GCM)(RuntimeError)但我似乎具备所有要求:ruby版本:$ruby--versionruby2.1.2p95OpenSSL会列出gcm:$opensslenc-help2>&1|grepgcm-aes-128-ecb-aes-128-gcm-aes-128-ofb-aes-192-ecb-aes-192-gcm-aes-192-ofb-aes-256-ecb-aes-256-gcm-aes-256-ofbRuby解释器:$irb2.1.2:001>require'openssl';puts

ruby - 按相似性对字符串进行分组

我有一个字符串数组,数量不多(可能几百个)但通常很长(几百个字符)。这些字符串通常是无意义的,并且彼此不同。但是在一组这样的字符串中,可能300个中有5个具有很大的相似性。事实上,它们是相同的字符串,不同的是格式、标点符号和一些单词..我怎样才能算出那组字符串?顺便说一句,我正在用ruby​​编写,但如果没有别的,伪代码算法就可以了。谢谢 最佳答案 假设您不担心每个单词的拼写错误或其他错误,您可以执行以下操作:构建一个倒排索引,它基本上是一个以单词为键的散列,指向包含该单词的字符串的指针列表(如何处理重复出现由您决定)。要确定与给定